4.4 指示チューニング
指示チューニング(instruction tuning)は、指示を含んだプロンプトと理想的な出力テキストの組で構成されるデータセットを使ったファインチューニングによって大規模言語モデルのアライメントを行う方法 (Kindle版 p.140)
TODO:アラインメントという部分は別途確認したい(大規模言語モデル講座 Day6 の範囲を確認)
指示チューニング(のみ)
既存の自然言語処理のデータセットを再利用して、指示チューニングのデータセットを構築 (Kindle版 p.140)
同様の方法で構築された大規模データセット
指示チューニング + RLHF
問題点
データセット
人手で構築する場合、高コスト
既存データセットを再利用する場合、出力の多様性を確保することが難しい
モデル
モデルの出力テキストにフィードバックを行えない
RLHFは行える